Pautas Proyecto Final
Pautas para la Propuesta del Proyecto Final de Ciencia de Datos:
Objetivo General:
El objetivo principal de este proyecto es que los estudiantes apliquen sus conocimientos y habilidades en el lenguaje de programación R para analizar un problema relevante para Venezuela o un sector de la sociedad. Los estudiantes deberán seguir las fases estándar del ciclo de vida de proyectos de ciencia de datos: importar, ordenar, transformar-limpiar, visualizar, modelar y comunicar.
En general, sobre el Ensayo que están trabajando, dentro de las siguientes fases y puntos, es de la Fase 1 en sus puntos 1, 2 y 3, los que estamos abordando en este momento.
Fase 1: Selección de la Problemática
1. Identificación de Temas Relevantes:
- Los estudiantes deben identificar un tema relevante para Venezuela que les interese personalmente. Algunos ejemplos pueden incluir:
Análisis de la inflación y su impacto en el consumo
Evaluación del desempleo y las tendencias laborales
Estudio de la distribución de ingresos y pobreza
Análisis de la calidad de vida en diferentes regiones del país
Investigación sobre el acceso a servicios básicos (agua, electricidad, salud)
Los estudiantes deben justificar por qué este tema les interesa y cómo creen que puede contribuir al campo de la ciencia de datos.
2. Definición de la Pregunta de Investigación:
- Basándose en el tema seleccionado, los estudiantes deben formular una pregunta de investigación clara y específica.
- La pregunta debe ser susceptible de análisis mediante técnicas estadísticas y visualización de datos.
3. Evaluar posibles Fuentes de Datos:
- Junto con el profesor se evaluará la viabilidad de obtener y recolectar periódicamente datos que sirvan para el proyecto. Se puede evaluar que es factible o no realizar la investigación.
Nota: En la siguiente Fase 4, debería empezar el AnteProyecto, juntando todas las ideas de cada participante de su correspondiente equipo
4. Selección de Fuentes de Datos:
- Los estudiantes deben identificar y seleccionar fuentes de datos relevantes para su proyecto.
- Las fuentes pueden incluir:
- Estadísticas oficiales del INE (Instituto Nacional de Estadística)
- Informes económicos del Banco Mundial
- Datos de encuestas sociales
- Series temporales económicas
- Datos abiertos disponibles en plataformas como Kaggle o Data.gov
- Los estudiantes deben presentar una propuesta detallada de las fuentes de datos que planean utilizar, incluyendo un análisis de la calidad y relevancia de los mismos.
Nota: La selección final de las fuentes de datos será revisada por los profesores de la materia para asegurar su adecuación al proyecto y la factibilidad de recolectar tales datos, dado la realidad nacional.
Lo que sigue, es lo que se trabajará en el Proyecto.
Fase 2: Importar y Ordenar Datos
1. Importar Datos:
- Los estudiantes deben aprender a importar datos desde diferentes formatos (CSV, Excel, JSON, bases de datos SQL) utilizando R.
2. Ordenamiento y Exploración Inicial:
- Los estudiantes deben explorar los datos importados para entender su estructura y contenido.
- Deben identificar variables relevantes, tipos de datos y posibles problemas de calidad (valores faltantes, outliers, etc.).
Fase 3: Transformar y Limpiar Datos
1. Transformación de Datos:
- Los estudiantes deben aprender a transformar los datos para prepararlos para el análisis.
- Esto puede incluir la creación de nuevas variables, la recodificación de variables existentes o la aplicación de funciones matemáticas.
2. Limpieza de Datos:
- Los estudiantes deben identificar y manejar valores faltantes, outliers y otros problemas de calidad en los datos.
- Se les recomienda utilizar paquetes como `dplyr` para realizar operaciones de transformación y limpieza eficientes.
Fase 4: Visualización de Datos
1. Creación de Gráficos y Tablas:
- Los estudiantes deben aprender a crear gráficos y tablas que ayuden a visualizar los datos y responder la pregunta de investigación.
- Se les recomienda utilizar paquetes como `ggplot2`, plotly y otros paquetes que sean vistos en clase, para crear gráficos estéticamente atractivos y informativos.
2. Interpretación de Visualizaciones:
- Los estudiantes deben interpretar las visualizaciones creadas y relacionarlas con la pregunta de investigación.
- Deben ser capaces de comunicar claramente los hallazgos visuales en un contexto narrativo.
Fase 5: Modelado de Datos: (no es obligatorio esta fase)
1. Selección de Modelos Estadísticos
- Los estudiantes deben seleccionar y aplicar modelos estadísticos apropiados para responder la pregunta de investigación.
- Esto puede incluir regresiones lineales, análisis de variancia (ANOVA), series temporales o otros métodos según sea necesario.
2. Interpretación de Modelos:
- Los estudiantes deben interpretar los resultados obtenidos de los modelos y relacionarlos con la pregunta de investigación.
- Deben ser capaces de comunicar claramente las implicaciones de los hallazgos estadísticos en un contexto narrativo.
Fase 6: Comunicación de Resultados una de las fases más importantes en lo que estamos haciendo
1. Creación de Informes, Dashboard o Aplicación Web:
- Los estudiantes deben aprender a crear informes que presenten sus análisis y resultados.
- Se les recomienda utilizar herramientas como qmd para combinar código, texto y visualizaciones en un solo documento. De esto hablaremos con detalle a lo largo del curso.
2. Presentación Oral:
- Los estudiantes deben preparar una presentación oral breve (10-15 minutos) que resuma su proyecto, incluyendo la pregunta de investigación, los métodos utilizados, los resultados obtenidos y las conclusiones.
- La presentación debe ser clara, concisa y visualmente atractiva.
3. Presentación en un Afiche:
- Luego conversaremos sobre este punto